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摘 要 : [目的 /意义 ] 构 建 多 源 文 献 元 数据 融合 模型 ,有 助 于 提升 文献 元 数据 整体 质量 ,促进 资 
资源 发 现 服务 体验 。 针 对 笔者 此 前 提出 的 文献 元 数据 判 重 策略 进行 优化 ,从 经 
判 重 和 融合 效果 的 前 提 下 ,提升 整个 过 程 的 自动 化 水 平 。 
据 项 不 一 样 .同一 文献 不 同 来 源 的 元 数据 项 不 一 样 均 会 使 得 判 重 方法 有 所 区 别 的 情 


理 与 利用 ,优化 用 户 次 
化 转变 ,在 保障 


资源 发 现 系 统 中 的 元 数据 管 
验 为 主 向 自动 
[方法 /过 程 ] 针对 不 同类 型 文献 的 元 数 
况 , 提 出 一 种 自动 化 的 基于 决 


策 树 的 多 源 文献 元 数据 融合 模型 ,将 判 重 问题 转化 为 分 类 问题 ,根据 特征 相似 度 选择 特征 并 构造 决策 树 ,在 此 基 


础 上 实施 元 数据 判 重 及 融合 ,并 以 不 同类 型 的 文献 资 
论 ] 结果 显示 ,对 于 5 种 文献 类 型 元 数据 , 判 重 策略 的 准确 率 均 达到 9996 以 上 ,如 
较 好 。 对 于 融合 策略 的 效果 判断 ,专利 、 学 位 论文 .期刊 论 文 .会 议论 文 .图 书 的 元 数据 项 质量 提升 比例 分 别 为 
15. 1596 、36. 8096 、15.29% 、52.63% 、15.38% , 均 有 明显 幅 
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源 元 数据 为 例 进 行 实验 ,对 策略 进行 效果 验证 。 [ 结果 / 结 


召回 率 均 达到 0896 以 上 ,总 体 效 果 


度 的 提升 。 


类 型 文献 资源 爆炸 式 增长 ,传统 
mici ee , 而 资 


icq ig Da mt 
性 不 言 而 喻 ,一 方面 能 够 帮助 用 户 快 速 获 取 所 需 资 源 ， 
量 元 数据 进行 抽取 、 映 射 及 导入 等 处 理 
能 够 有 效 吉 免 不 同 来 源 、 资源 及 数据 结构 带 来 的 组 织 
障碍 ,辅助 服务 商 提升 系统 管理 服务 水 平 。 但 是 各 资 
源 发 现 系统 中 也 存在 诸如 元 数据 加 工 成 本 及 系统 适应 
性 导致 服务 商 提供 的 元 数据 厚薄 不 一 ,质量 参差 不 齐 ， 
标注 过 程 出 现 错误 ,系统 间 互 操作 性 较 差 等 问题 。 单 
一 来 源 的 元 数据 无 法 解决 上 述 问 题 ,因此 ,需要 对 多 源 
文献 元 数据 进行 融合 重组 ,从 元 数据 准确 性 、 完 整 性 等 
方面 全 面 提高 资源 发 现 系 统 中 的 文献 元 数据 质量 , 提 


数据 质量 提升 模型 。 实 验 表明 ,对 于 期 刊 论文 元 数据 ， 
该 策略 的 准确 率 为 99. 9% , 召回 率 为 99.2% ,策略 
的 整体 效果 较 优 。 然 而 ,不 同类 型 文献 的 元 数据 项 不 
一 样 ,其 可 用 的 判 重 方法 会 不 同 ;同一 文献 不 同 来 源 的 
元 数据 项 不 一 样 ,其 实际 采用 的 判 重 方法 可 能 也 会 有 
所 区 别 。 而 上 文中 期 刊 元 数据 项 判 重 策略 主要 以 经 验 
so en 针对 这 些 

司 题 ,本 文 构造 了 自动 化 的 基于 决策 树 的 多 源 文 献 元 
i5 0 ou 
源 的 文献 元 数据 并 进行 预 处 理 ,根据 元 数据 项 构造 特 
征 ,通过 计算 特征 相似 度 进行 特征 选择 并 构造 决策 树 ， 
在 此 基础 上 实施 判 重 ,形成 待 融合 元 数据 ,最 后 通过 对 
待 融合 元 数据 的 融合 处 理 , 最 终生 成 对 文献 资源 准确 、 
一 臻 .完整 的 描述 。 


2 相关 研究 


高 元 数据 管理 和 利用 水 平 , 充 分 发 挥 资源 发 现 系统 的 
发 现 服务 组 织 价值 ,从 而 提升 用 户 体验 。 

为 解决 上 述 元 数据 质量 问题 , 林 午 等" 研究 借鉴 
判 重 和 融合 思想 ,提出 了 基于 多 源 数据 融合 的 文献 元 


元 数据 作为 图 情 领 域 研究 与 实践 的 重要 主题 

年 来 受到 了 国内 外 相关 领域 学 者 的 广泛 关注 ， 
相关 程度 较 高 的 研究 包括 元 数据 质量 评价 指标 、 元 数 
据 质量 控制 和 元 数据 融合 3 个 方面 。 
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对 元 数据 质量 进行 评价 是 开展 质量 控制 和 融合 的 

前 提 。 国 外 研究 中 ,J，R. Park 等 对 全 美元 数据 相关 
从 业者 进行 随机 问卷 调查 ,结果 显示 从 业者 普遍 认为 
完整 性 .准确 性 和 一 致 性 是 影响 元 数据 质量 最 基本 且 
最 深远 的 3 个 指标 ” ;B. Stivilia 等 在 对 信息 质量 变化 
ne N 


ZEEE E RU ;T. R. Bruce 等 在 对 B. Stivilia 等 
提出 的 指标 因素 框架 进行 凝练 后 ,将 元 数据 质量 评价 


指标 扩充 为 完整 性 、 准 确 性 、 期 望 满足 程度 一致 性 、 可 
用 性 \ 时 效 性 和 来 源 7 个 方面 ”。 当 前 国内 研究 主要 


用 NLP 算法 对 数据 进行 去 重 . 归 一 和 消 此 等 ,并 构建 
了 健康 大 数据 平台 … 。 严 承 希 等 认为 元 数据 是 非 规 
范 性 的 输入 单元 ,需要 对 其 进行 转换 与 复合 ,提出 的 冲 
突 宛 余 检 测 思 想 及 知识 合并 方法 为 本 文 的 元 数据 判 重 
及 融合 部 分 提供 了 参考 。 

综 上 ,目前 关于 元 数据 质量 评价 指标 质量 控制 和 
元 数据 融合 的 相关 研究 业已 成 熟 ,学 者 们 提出 的 质量 
评价 指标 相似 度 较 高 ,主要 为 准确 性 一 致 性 和 完整 性 
3 点 ,在 具体 的 应 用 实践 中 会 有 些许 差异 。 元 数据 质 
量 控制 主要 是 从 元 数据 规范 化 .映射 、 判 重 及 过 程控 制 


从 通用 系统 和 特定 系统 两 个 角度 对 元 数据 评价 指标 民 
开工 作 。 通 用 系统 评价 指标 研究 中 ,相关 学 者 将 其 归 
纳 为 完整 性 ,准确 性 、 可 获得 性 、 可 理解 性 . 易 用 性 、 合 
规 性 、 及 时 人 性、 一 致 性 .开放 性 和 客观 性 等 T. Mo) 
ENA A a i 
foe E EPE PENR O FATE TE TE , — Sic MERIT JC 
性 名 ;和 董 微 等 结合 当前 图 书馆 发 展现 状 ,将 开放 期 刊 元 
莉 质 量 指标 划分 为 准确 性 完整 性 及 时 性 唯一 性 、 
«dk 有效 性 和 关联 性 7 个 方面 ”; 刘 家 真 等 认为 电 
了 人 管理 元 数据 评价 指标 包括 描述 程度 .描述 精度 、 
Miu t 性 3 个 方面 ”。 
通过 对 元 数据 质量 控制 研究 成 果 的 调研 发 现 , 相 
党 者 认为 元 数据 质量 问题 主要 包括 著录 规范 性 不 
足 < 蕉 确 性 不 足 、 完 整 性 不 足 .厚度 不 足 .元 数据 重复 、 
DUE D PE UN 针对 上 述 元 数据 质量 
问题 ,学 者 们 也 开展 了 相应 应 的 元 数据 质量 控制 研究 , 包 
括 元 数据 清洗 ,映射 判 重 及 分 阶段 过 程控 制 几 个 核心 
iSo G. L. Li 等 指出 为 了 保障 综合 效果 ,清洗 环节 
应 重点 关注 数据 质量 、 时 间 效 率 和 成 本 控制 '; 李 芒 
佳 等 研究 了 WoS .EI、CNKI 及 CSCD 4 个 来 源 的 机 构 名 
称 元 数据 的 语义 化 映射 策略 ;在 元 数据 判 重 环节 ， 
相关 学 者 主要 是 围绕 元 数据 取 值 相等 的 思路 开展 研 
$E ^7 ;在 分 阶段 过 程控 制 中 ,H，Manguinhas 等 介绍 
T UNIMARC 书目 元 数据 模式 ,并 以 XML 格式 对 元 数 
据 进 行 质量 记录 ,从 而 实现 质量 控制 过 程 的 自动 
化 29 ; 草 月 珍 等 指出 制定 元 数据 质量 控制 标准 应 统 找 
全 局 ,从 制定 元 数据 标准 、 元 数据 加 工 、 系 统 录 入 、 更 
新 、 系 统 间 互 操作 .元 数据 评估 等 各 阶段 入 手 ,进而 实 
现 全 过 程控 制 ”。 

资源 发 现 系 统 中 元 数据 结构 和 内 容 等 存在 的 质量 
问题 会 导致 系统 间 互 操作 性 较 差 , 因 此 需要 通过 多 源 
元 数据 融合 解决 上 述 问 题 。 王 利 亚 等 针对 健康 医疗 数 
据 中 的 元 数据 多 源 、 多 样 、 分 散 及 非 结 构 化 等 问题 , 利 


管理 等 方面 展开 。 根 据 元 数据 融合 研究 可 知 元 数据 存 
在 的 问题 包含 不 全 面 ,准确 性 不 足 、 非 结构 化 、 非 规范 
化 等 。 因 此 ,针对 元 数据 存在 的 问题 ,本 文 借鉴 元 数据 
通用 评价 指标 和 质量 控制 思想 及 元 数据 融合 方法 ,以 
获取 准确 一致 和 完整 的 元 数据 为 目的 ,对 已 有 元 数据 
判 重 策略 进行 改进 ,允许 元 数据 取 值 部 分 相等 ,在 保证 
准确 率 的 同时 提高 召回 紊 ,扩大 多 源 元 数据 融合 比例 ， 
尽 可 能 保障 文献 资源 的 准确 性 一 致 性 和 完整 性 。 


3 基于 决策 树 的 多 源 文献 元 数据 融合 
模型 


为 了 得 到 准确 一致 .完整 的 文献 资源 ,需要 获取 
尽 可 能 多 的 优质 元 数据 对 其 进行 描述 ,本 文 根 据 林 多 
等 ”研究 中 元 数据 融合 障碍 分 析 , 设 计 了 基于 决策 树 
的 多 源 文献 元 数据 融合 模型 。 该 模型 主要 包括 4 个 模 
块 :多 源 文 献 元 数据 采集 、 元 数据 预 处 理 \ 特 征 选择 及 
元 数据 判 重 \ 元 数据 融合 ,模型 如 图 1 所 示 。 首 先 ,多 
源 文献 元 数据 采集 模块 的 采集 对 象 是 多 来 源 文献 元 数 
据 , 其 是 元 数据 判 重 及 融合 的 来 源 ; 其 次 ,对 采集 到 的 
多 来 源 元 数据 进行 规范 化 处 理 ,为 后 面 的 判 重 与 融合 
提供 便利 ;再 次 ,通过 元 数据 项 构造 特征 及 计算 特征 相 
似 度 ,然后 进行 特征 选择 并 构造 决策 树 ,进而 实施 判 重 
处 理 ; 最 后 利用 元 数据 融合 模块 对 符 融 合 元 数据 进行 
融合 ,最 终生 成 准确 一致 ,完整 的 元 数据 。 

3.1 多 源 文献 元 数据 采集 

为 了 获取 准确 一致 .完整 的 文献 资源 ,实现 资源 
发 现 系 统 跨 平台 的 一 站 式 检索 ,需要 对 资源 发 现 系统 
中 的 元 数据 进行 判 重 与 融合 。 而 资源 发 现 系 统 中 的 文 
献 元 数据 来 源 于 多 个 文献 资源 数据 库 , 如 中 国 知 网 、 万 
方 数据 库 .百度 文库 、 微 软 学 术 搜索 、Web of Science 
等 ,因此 ,本 文选 取 不 同 的 知识 服务 平台 作为 文献 资源 
元 数据 来 源 库 ， 采 集 不 同 数据 库 中 多 种 类 型 的 文献 元 
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n PSU 文献 类 型 NE || 。 元 和 本 度数 
" D MIN 微软 学 术 搜 索 专利 “| eux 数 
z A 据 | a | 元 数据 项 细 粒 度 拆 分 
数 万 方 数据 库 Web of Science 图 书 学 位 论文 ES " 
据 
| o 
X 百度 文库 | 0 期 刊 论文 | eee 元 数据 项 空 值 剔 除 
集 
|| 
和 征 构造 特征 选择 及 决策 树 构造 元 数据 判 重 
Am Fl sim 
n 余弦 相似 度 b= y BA 
x 题名 dias y e 
: 元 数据 项 共有 词 比 例 | 是 LT F2 满足 一 
in ls EE 
元 曼哈顿 距离 —> mi E. Y A > 
» F3. sim E [是 ] [天] | 
据 其 他 欧 氏 距离 : 其 他 元 
MET: N zre -m 数据 项 
Ex Fn sim 否 | 部 分 
重 1、0、-1 取 值 
D 1 WI 一 致 
E Ien nj 
二 y 
z 元 数据 ce T uk £ : TOR ET | id 
O 融合 ”| AEAN || ， 互 补 式 融合 策略 基于 规则 的 融合 策略 基于 加 权 投票 的 融合 策略 
LJ 
e 1 基于 决策 树 的 多 源 文 献 元 数据 融合 模型 
em 如 专利 ,学 位 论文 .期 刊 论 文 、 会 议论 文 图书 等 。 项 按照 内 容 进 行 拆 解 ,才能 与 其 他 来 源 的 相同 元 数据 


,对 于 不 同类 型 的 文献 ， 由 于 其 包 全 的 元 数据 项 有 
| 因此 采集 的 元 数据 项 也 会 有 所 不 同 。 
3. > 元 数据 预 处 理 
> 在 元 数据 采集 的 基础 上 ,需要 对 元 数据 进行 预 处 
理 $ 即 对 各 来 源 的 元 数据 按照 规定 格式 进行 规范 化 处 
理 3 以 便于 后 续 元 数据 的 判 重 与 融合 。 在 预 处 理 环节 
遵循 以 下 几 点 :在 规范 设置 时 尽量 选择 各 来 源 
著录 内 容 和 格式 的 共同 之 处 进行 设计 ,需要 注意 的 是 ， 
当 两 个 元 数据 项 名 称 不 同 但 内 容 实 为 相同 时 ,需要 将 
该 名 称 进行 统一 ,如 将 “页 码 数 "统一 为 “页 数 "。@@ 尽 
量 按照 资源 发 现 系统 的 著录 标准 保持 精度 一 致 (如 时 
间 地 点 等 ) ,例如 ,在 会 议论 文中 ,部 分 来 源 元 数据 著 
录 的 是 会 议 地 点 的 全 称 “ 中 国 福建 厦门 ”, 部 分 来 源 元 
数据 则 著录 的 是 “厦门 ” ,而 资源 发 现 系统 的 会 议 地 点 
元 数据 著录 标准 要 求 保留 局 部 即 可 , 即 在 规范 化 处 理 
时 保留 “厦门 ”"。@ 元 数据 项 细 粒 度 拆 分 ,将 组 合 型 的 
元 数据 项 拆 解 到 最 细 粒 度 , 以 保持 统一 ,例如 在 湖北 工 
大 学 的 图 书 元 数据 中 ,出 版 地 ”“ 出 版 社 ”“ 出 版 时 
间 ”3 个 元 数据 项 被 合并 成 一 个 元 数据 项 “出 版 发 行 
项 ” ,以 组 合 出 现 的 元 数据 项 会 对 元 数据 的 判 重 与 融合 
造成 干扰 ,而 具体 的 某 一 项 或 几 项 (如 出 版 社 ) 在 判 重 
与 融合 中 具有 一 定 的 作用 。 因 此 ,需要 对 该 类 元 数据 


= 


项 进行 判 重 及 融合 。 由 空 值 剔除 ,对 于 只 有 元 数据 项 
名 称 而 无 内 容 的 空 值 项 需要 进行 吻 除 ,如 会 议论 文中 
的 “DOI” 值 全 为 空 值 , 则 将 该 项 进行 吻 除 。 
3.3 ”特征 选择 及 元 数据 判 重 
服务 商 需 要 确定 哪些 元 数据 纳入 待 判 重 元 数据 体 

系 或 得 融合 元 数据 体系 ,因此 需 对 预 处 理 后 得 到 的 规 
范 元 数据 进行 判 重 。 由 于 原 有 方法 主要 是 凭借 经 验 制 
定 相 应 的 规则 对 元 数据 实施 判 重 , 自动 化 水 平 不 高 , 效 
率 较 低 ;而 且 由 于 不 同类 型 文献 的 元 数据 项 不 一 样 ,其 
所 用 到 的 方法 可 能 不 同 ;此 外 对 于 同一 种 文献 类 型 而 
言 ,不 同 来 源 的 元 数据 项 不 一 样 ,实际 采用 的 方法 可 能 
也 会 有 所 区 别 , 因 此 原 方法 的 适应 性 较 差 。 而 对 两 条 
元 数据 判 重 的 本 质 是 通过 对 任意 元 数据 项 进行 组 合 来 
判断 是 否 为 同一 条 元 数据 ,答案 只 有 是 与 否 , 因 此 本 文 
将 判 重 问题 转化 为 分 类 问题 ,采用 机 器 学 习 中 的 决策 
树 算法 ,实现 对 元 数据 的 自动 化 判 重 。 依 据 元 数据 项 
构造 出 一 系列 特征 ,计算 各 个 特征 之 间 的 相似 度 ,基于 
相似 度 选择 特征 ,在 此 基础 上 生成 决策 树 ,具体 可 分 为 
以 下 几 个 步骤 。 
3.3.1 特征 构造 

依据 元 数据 项 构造 特征 ,计算 各 个 特征 之 间 的 相 
度 ,特征 类 型 不 同 , 相 似 度 计算 方法 有 所 差异 ,如 余 


似 
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弦 相 似 度 、 共 有 词 比 例 、 曼 哈 顿 距离 及 1.0、- 1 离散 取 
值 等 。 由 于 元 数据 项 存在 不 完整 的 情况 ,因此 需要 对 
数据 进行 分 组 训练 ,分 组 依据 是 两 组 数据 至 少 有 一 项 
元 数据 项 不 为 空 , 即 两 项 至 少 有 一 项 不 为 空 。 

(1) 对 于 题名 元 数据 项 ,由 于 各 元 数据 提供 方 在 
著录 时 可 能 遵循 的 是 不 同 的 著录 规则 ( 如 不 著录 题名 
副标题 或 不 对 题名 上 下 标 进 行 处 理 等 ) 抑 或 是 在 著录 
时 出 错 , 均 可 能 导致 题名 信息 和 长 度 存在 不 一 致 , 因 
此 ,借鉴 最 短 匹配 的 思想 ,采用 共有 词 比例 方法 来 计算 
题名 相似 度 ( 见 公 式 1)™|。 


num (M,N,) 
Si M N z mutual a b NP 1 
um "M num, (Ma, N, ) 公式 (1) 


式 中 ,M, 为 元 数据 信息 库 M 中 的 题名 特征 a, N, 
为 元 数据 信息 库 N 中 的 题名 特征 b; Sim( M,，N, ) 为 
MOMIN, 的 题名 相似 度 ; num (M,N ) 为 M, MN, 
共存 汉字 或 单词 的 总 数 ,其 中 重复 汉字 或 单词 不 做 去 
SO num, (M,N, ) 为 M, 和 Ni, 中 的 最 短 长 度 特 
徙 的 汉字 或 单词 数 。 


R 


LER EI Je s AEV E AOE R ERT I 
SIMER RATE FR SCR EE ORE ) 
TRAET EIR PIR FI G), (2), GR 
«£l 等 带 有 序号 的 信息 ,这 类 型 文献 资源 相互 之 间 具 
大 谨 强 的 关联 性 ,各 元 数据 项 的 值 均 高 度 一 致 , 易 造成 


误 阐 ,因此 当 序 号 不 一 致 时 ,判定 题名 特征 相似 度 为 


比 提高 判 重 策略 的 准确 性 。 

它 (2) 对 于 其 他 类 型 的 元 数据 项 ,由 于 只 需要 判断 
两 贰 是 否 一 致 ,并 不 需要 判断 一 致 的 程度 ,因此 ,在 构 
竿 黑 征 时 相似 度 取 离散 值 ,利用 1.0、- 1 对 特征 值 的 
相似 度 进行 表示 ,1 表示 两 个 特征 一 致 ,0 表示 两 个 特 
征 不 一 致 , -1 表示 两 个 特征 其 中 一 项 为 空 , 无 法 判断 
是 否 一 致 。 

3.3.2 ”特征 选择 及 决策 树 构造 

决策 树 通 常 采 用 ID3,C4.5,C5.0 和 CART 算法 来 
构造 ,由 于 ID3 算法 计算 复杂 度 不 高 ,输出 结果 
易于 理解 , 且 针 对 离散 型 数据 适应 性 较 强 ,因此 本 文 根 
据 采集 到 的 文献 数据 特点 选择 该 算法 构造 决策 树 。 
ID3 算法 的 核心 在 于 信息 增益 ,因此 将 基于 特征 相似 
度 计算 出 的 信息 增益 定义 为 一 个 特征 能 够 为 分 类 系统 
带 来 多 少 信息 量 , 即 在 一 个 条 件 下 ,信息 复杂 度 减 少 的 
程度 ,信息 量 越 大 ,说 明 该 特征 越 重 要 ,相应 的 信息 增 
益 越 大 ,对 整个 系统 复杂 度 减 少 的 贡献 越 大 ” 。 信 息 
增益 能 够 表征 数据 集 划分 前 后 信息 发 生 的 变化 , 即 引 
入 特征 A 后 原 数据 集 D 的 不 确定 性 减少 的 程度 , 见 公 


式 (2) (3)、(4) 。 
infoGain( D | A)  H(D) - H(DIA) 公式 (2) 
式 中 ,infoGain(DIA) 为 信息 增益 ,H(CD) 为 D 的 信 
EJR.H(ODIA)2gZà5E A 的 条 件 下 D WRR. 
1C,l IC,l l 
pi /^ipp ARG) 


xp HOD) zo fii Uii, DI A EPEA A, k 


H(D)= -Xi, 


TENE a, 
为 特征 个 数 ,1Cul 为 第 上 个 特征 的 样本 个 数 ,1 为 随 
机 变量 的 概率 值 。 

LT 
人 

公式 (4) 

ID 

式 中 ,H(DIA) BRRR, D, 为 随机 变量 ,让 


为 选 定 特 征 的 某 个 类 别 的 概率 ,1Dx | 为 在 Di 条件 下 某 
个 类 别 的 样本 个 数 。 

计算 每 个 特征 引入 后 的 信息 增益 ,获得 信息 增益 
最 大 的 特征 即 为 最 优选 择 ,依次 选择 特征 ,直至 类 别 完 
全 相同 或 是 没有 特征 可 进行 选择 ,进而 得 到 最 终 的 决 
策 树 。 
3.3.3 通过 决策 树 对 元 数据 判 重 

不 同 来 源 的 文献 在 同一 元 数据 项 上 可 能 产生 不 同 
值 , 仅 赁 单个 元 数据 项 作为 判 重 条 件 可 能 会 导致 误 判 ， 
因此 需要 识别 出 关于 同一 篇 文献 的 多 个 元 数据 项 并 对 
其 进行 组 合 ,才能 进行 元 数据 融合 ,否则 可 能 引发 新 的 
数据 错误 。 对 不 同 来 源 但 属于 同一 内 容 的 元 数据 项 实 
施 判 重 ,借鉴 林 讲 等 ”研究 中 对 元 数据 的 透视 分 析 , 本 
文采 用 的 判 重 策略 是 题名 相似 度 满 足 一 定 阔 值 ,其 他 
元 数据 项 要 求 部 分 取 值 相等 (如 专利 中 的 公开 号 、 公 开 
日 .申请 人 等 ) ,该 策略 具有 一 定 的 容错 性 ,能 够 在 保证 
准确 率 的 同时 兼顾 召回 率 , 避免 对 判 重 效 果 产 生 大 的 
负面 影响 。 
3.4 元 数据 融合 

在 对 元 数据 实施 判 重 后 , 即 确 定 了 各 来 源 描 述 同 
一 文献 的 元 数据 ,接着 对 各 元 数据 进行 内 容 融 合 ,提升 
元 数据 的 整体 质量 ,进而 获取 准确 .一 致 .完整 的 文献 
资源 。 依 据 林 饪 等" 研究 中 对 元 数据 的 透视 分 析 , 本 
文 针 对 不 同 元 数据 采用 不 同 的 元 数据 融合 策略 ,具体 
为 去 重 式 融合 策略 .互补 式 融 合 策略 .基于 规则 的 融合 
策略 和 基于 加 权 投 票 的 融合 策略 。 其 中 前 两 种 融合 策 
略 只 针对 元 数据 本 身 , 最 为 简单 有 效 ; 后 两 种 涉及 到 各 
来 源 元 数据 的 质量 问题 和 异 构 问题 。 在 融合 时 ,需要 


121 


Q4 4i xt 


第 66 卷 第 6 期 2022 ££3 H 


ChinaXiv 合 作 期 刊 


针对 不 同情 形 ,采取 相应 的 融合 策略 。 
3.4.1 去 重 式 融合 策略 
多 数 情 况 下 ,各 来 源 的 元 数据 信息 均 较 完整 ,关于 


资源 的 各 来 源 元 数据 均 不 为 空 , 且 符 合 著录 规范 的 元 
数据 有 多 个 ,此 时 则 需要 通过 加 权 投 票 策略 进行 融合 。 
针对 每 一 条 元 数据 信息 ,根据 公式 (5) 对 其 权 值 进 行 


同一 文献 资源 的 元 数据 非 空 且 一 致 ,此 时 仅 需 采取 最 
简单 的 去 重 式 融 合 策略 ,保留 任意 一 个 来 源 的 元 数据 
即 可 。 如 专利 中 的 “题名 "元 数据 项 ,各 来 源 的 元 数据 
项 均 为 ”人工 智能 灭火 机 器 人 ”, 则 直接 将 其 作为 融合 
后 的 “题名 "元 数据 项 。 

3.4.2 互补 式 融 合 策略 


多 数 元 数据 信息 较为 完整 ,但 也 存在 部 分 元 数据 
缺失 的 情况 ,因此 需要 对 空 值 进行 填补 ,此 时 采取 互补 
性 融合 策略 。 通 过 判 重 策略 确定 为 同一 文献 资源 的 各 
来 源 元 数据 , 当 只 有 某 一 来 源 的 值 非 空 时 , 则 将 其 保 
留 二 如 茶 一 篇 期 刊 论文 中 的 “作者 "元 数据 项 ,各 来 源 


3s4 基于 规则 的 融合 策略 
中 基于 规则 的 融合 策略 主要 是 针对 某 一 文献 资源 的 
纸 弄 源 元 数据 均 不 为 空 ,但 只 有 一 个 来 源 的 元 数据 车 
录 防 准 符 合 规范 , 则 对 其 进行 保留 。 如 各 来 源 “ 题 名 ” 
据 项 , 当 只 有 一 个 来 源 中 的 “题名 ”项 包含 副标题 
时 5 旨 将 其 作为 该 文献 资源 的 “题名 "信息 。 又 如 * 题 
命 宛 数据 项 包含 特殊 字符 , 则 将 其 切 分 为 文字 局 部 和 
特殊 字符 局 部 ,保留 符合 规范 的 文字 和 特殊 字符 ,将 其 
作 区 “题名 "信息 。 
3.4»? 基于 加 权 投 票 的 融合 策略 
基于 加 权 投票 的 融合 策略 主要 针对 的 是 某 一 文献 


计算 ,并 将 权 值 最 大 的 作为 最 终结 果 。 

W = Èi Si 公式 (5) 

RP, W, 是 指 j 元 数据 项 的 加 权 投 票 权重 ;5, ,是 

指 i 来 源 中 j 元 数据 项 的 质量 得 分 ,其 分 数 来 源 于 元 数 
据 透 视 环节 的 定量 评价 结果 , 视 具体 情况 而 定 。 


4 实验 设计 


为 了 对 模型 效果 进行 全 面 验证 ,选择 样本 数据 时 
需要 涵盖 各 类 型 文献 资源 ,中 国 知 网 和 万 方 数据 库 作 
为 国内 科研 领域 较 常 使 用 的 文献 资源 数据 库 ,资源 覆 
盖 范 围 广泛 内容 包含 全 面 ,为 科研 学 者 提供 了 便捷 的 
知识 获取 服务 。 因 此 ,本 文选 择 上 述 两 个 平台 为 文献 
资源 数据 库 ,选取 专利 .学 位 论文 .期 刊 论 文 和 会 议论 
文 为 元 数据 对 象 来 源 ;高 校 图 书馆 馆藏 图 书 由 于 其 学 
术 价 值 较 高 , 且 考 虑 到 数据 的 可 获得 性 和 获取 便捷 性 ， 
故 图 书 元 数据 选 自 华中 师范 大 学 图 书馆 和 湖北 工业 大 
学 图 书馆 。 

4.1 数据 采集 

笔者 从 中 国 知 网 和 万 方 数据 库 中 导出 的 专利 元 数 
据 分 别 为 6 000 和 6 050 条 ,学 位 论文 元 数据 分 别 为 
5 358 和 4 742 条 ,期 刊 论文 元 数据 分 别 为 21 798 和 
28 453 条 ,会 议论 文 元 数据 分 别 为 5 104 和 1 125 条 ;从 
华中 师范 大 学 图 书馆 和 湖北 工业 大 学 图 书馆 中 导出 的 
图 书 元 数据 分 别 为 2 488 和 2 484 条 。 具 体 的 元 数据 
Adel I: 


A1 多 文献 类 型 各 来 源 元 数据 项 


文献 类 型 数据 来 源 元 数据 项 
专利 中 国 知 网 题名 /专利 名 称 ` 公 开 号 .申请 人 、 申 请 机 构 、 作 者 /发 明 人 、 申 请 日 公开 日 . 国 省 名 称 ` 专 利 类 别名 称 ` 摘 要 、 主 权 项 、 
数据 库 . 中 图 分 类 号 ISSN 
万 方 数 据 库 。” 题 名 申请 /专利 号 ,公开 /公告 号 ,申请 人 .发 明 /设计 人 ,申请 日 期 \ 公 开 /公告 日 .主权 项 ,摘要 
学 位 论文 中 国 知 网 。 ”标题 ,作者 .关键 词 . 机 构 , 摘 要 ,专辑 .专题 ,分 类 号 .指导 老师 
万 方 数 据 库 。 ”标题 摘要 、DOL, 关 键 词 .作者 学 位 授予 单位 .授予 学 位 学科 专业 ,导师 姓名 .学 位 年 度 , 语 种 .分 类 号 .出 版 时 间 
期 刊 论文 中 国 知 网 。 。 刊 名 .标题 .作者 .关键 词 .机 构 . 摘 要. 卷 .期 .年 .页 数 .页 码 
万 方 数 据 库 。 ”标题 摘要、DOL, 关 键 词 .作者 ,作者 单位 . 刊 名 年 . 卷 .期 .所 属 期 刊 栏目 ,分 类 号 ,出 版 时 间 、 页 数 .页 码 
会 议论 文 中 国 知 网 。 ”标题 ,作者 .关键 词 . 作 者 单位 .摘要 基金. 会 议 名 称 ,会议 时 间 会 议 地 点 ,专题 .专辑 .分 类 号 页码. 页 数 
万 方 数 据 库 。 ”标题 摘要、DOL, 关 键 词 .作者 ,会 议 名 称 ,作者 单位 ,母体 文献 ,会议 时 间 ,会议 地 点 ,语种 ,分 类 码 ,页码 
图 书 华中 师范 大 学 。 MARC 号 , 案 书 号 .题名 ,责任 者 出 版 社 . 出 版 年 .标准 号 .文献 类 型 
湖北 工业 大 学 。 ”题名 责任 者 .出 版 发 行 地 出 版 社 . 出 版 时 间 、 定 价 .载体 形态 项 ,学科 主 题 ,分 类 号 .提要 文摘 附注 


利用 实验 数据 对 模型 进行 验证 ,对 于 判 重 策略 的 
效果 验证 采用 的 是 准确 率 和 召回 率 ;对 于 融合 效果 的 


验证 采用 的 是 元 数据 项 质量 提升 比例 。 判 重 策略 的 准 
确 率 和 召回 率 的 计算 如 公式 (6) 和 公式 (7) 所 示 : 
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公式 (6) 

式 中 ,T 为 判 重 策略 识别 出 的 篇 数 且 实 际 重复 的 
篇 数 ;m 为 判 重 策略 识别 出 的 篇 数 。 

T 
Recall = Tan x 100% 

式 中 ,n 为 判 重 策略 未 识别 出 的 篇 数 。 
4.2. 元 数据 判 重 与 融合 

首先 是 对 采集 到 的 5 种 类 型 元 数据 进行 预 处 理 ， 
在 实施 过 程 中 主要 包含 几 个 部 分 :对 元 数据 名 称 和 格 


Precision = x 10096 
m 


公式 (7) 


式 进行 统一 化 .保持 元 数据 项 精度 一 致 将 元 数据 项 进 
行 细 粒 度 拆 分 及 对 元 数据 项 空 值 进行 剔除 。 

其 次 是 特征 构造 ,利用 元 数据 项 构造 特征 并 计算 
村 征 相 似 度 ,所 使 用 的 元 数据 项 要 求 至 少 有 一 边 非 空 ， 
即 至 少 有 一 项 有 取 值 ,以 计算 相似 度 。 对 于 题名 特征 ， 
采用 共有 词 比例 方法 得 到 题名 相似 度 ,其 他 特征 采用 1、 
0, - 1 离散 值 对 相似 度 进行 表示 ,两 者 一 致 为 1 ,两 者 不 
一 致 为 0, 两 者 有 一 边 为 空 用 -1 表示 。 各 来 源 文献 元 
数据 判 重 及 融合 实际 所 选用 的 元 数据 项 如 表 2 所 示 : 


R2 各 来 源 文献 元 数据 判 重 及 融合 实际 选用 元 数据 项 


文献 类 型 判 重 使 用 的 元 数据 项 


融合 使 用 的 元 数据 项 


专利 题名 /专利 名 称 、 公 开 号 、 申 请 人 、 作 者 /发 明 


题名 /专利 名 称 、 公 开 号 、 申 请 人 、 作 者 /发 明 人 申请 日 ,公开 日 .申请 机 构 、 国 省 名 称 、 专 利 类 别 
名 称 、 申 请 /专利 号 .摘要 ,主权 项 

标题 作者 ,关键 词 .机构 ,分 类 号 .指导 老师 摘要、 专辑 专题 ,DOI 授予 学 位 ,学科 专业 

示 题 ,作者 .关键 词 、 机 构 .期 刊 . 卷 . 期 \ 年 、 标题 ,作者 、 关 键 词 机构 、 期 刊 , 卷 .期 \ 年 页 数 、 页 码 、 摘 要 、DOI、 所 属 期 刊 栏 目 、 分 类 号 


标题 ,作者 .关键 词 . 作 者 单位 会 议 名 称 、 会 ”标题 ,作者 .关键 词 作 者 单位 会 议 名 称 、 会 议 时 间 会 议 地 点 ,分 类 号 .页码 \ 摘 要、 基金 .专题 、 


人 ,申请 日 .公开 日 
说 位 论文 “标题 ,作者 关键 词 、 机 构 、 分 类 号 ,指导 老师 
Prex o d 
mN 页 数 、 页 码 
"TERQUE Xx 
[eo] 议 时 间 , 会 议 地 点 分 类 号 ,页码 专辑 .页 数 .母体 文献 


图 书 题名 责任 者 .出 版 社 ` 出 版 年 ISBN 


题名 责任 者 .出 版 社 .出 版 年 JSBN 出 版 地 定价、 页 数 .载体 形态 项 


于 首先 ,为 确定 题名 相似 度 阐 值 ,从 中 国 知 网 和 万 方 
数据 库 中 各 抽取 专利 .期刊 论文 .学 术 论文 和 会 议论 文 
的 条 数据 1 000 条 ,从 两 个 图 书馆 数据 库 中 抽取 图 书 


TL 


ARI 1 000 条 ,共计 5 000 条 元 数据 作为 训练 集 ,分 


别 对 两 个 来 源 的 “题名 "元 数据 进行 相似 度 计算 , 当 相 
IER (B 0. 85 时 ,5 种 文献 类 型 的 元 数据 判 重 策略 
ifie 回 率 均 达到 了 99% 以 上 , 判 重 效果 显 
著 忆 综合 5 种 类 型 文献 元 数据 , 故 将 题名 相似 度 阔 值 
设 表 0.85 。 

〇 其 次 ,根据 特征 相似 度 进行 特征 选择 及 决策 树 构 
造 。 基 于 特征 相似 度 计算 出 的 信息 增益 越 大 ,对 于 各 
来 源 文献 资源 元 数据 判 重 的 意义 越 大 ,优先 选择 信息 
增益 最 天 的 特征 作为 根 节点 ,递归 构造 决策 树 。 以 多 
书 为 例 构 造 决 策 树 , 详 如 图 2 所 示 ; 


ISBN. sim 
ue TN 
1 -1 


责任 者 _sim 


责任 者 _sim 
AE 
0 一 1 -1 


dt 
HA A 


0 1 
BN 
题名 _sim 
三 0.85 一 0.85 
图 2 图 书 决 策 树 
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通过 对 元 数据 的 分 析 , 在 满足 2/3 元 数据 项 重 


的 条 件 下 ,将 其 判定 为 重复 元 数据 ,并 生成 重复 元 数据 
集合 ,在 此 基础 上 ,进行 元 数据 融合 。 具 体 包含 以 下 情 
JE :中 当 两 个 来 源 的 元 数据 项 均 非 空 且 取 值 一 致 时 , 采 
取 去 重 式 融合 策略 得 到 融合 结果 ;@ 当 两 个 来 源 的 元 
数据 项 均 不 为 空 且 取 值 不 一 致 ,但 只 有 其 中 一 项 符合 
著录 规范 , 则 采用 基于 规则 的 融合 策略 ,将 规范 性 的 元 
数据 作为 融合 结果 ;@@ 当 两 个 来 源 的 元 数据 项 均 不 为 
空 且 取 值 不 一 致 ,但 均 符合 著录 规范 时 , 则 采取 基于 加 
权 投 票 的 策略 ,引入 其 他 来 源 对 其 进行 投票 计算 ,选择 
权 值 较 大 的 作为 融合 结果 ;人 由 当 两 个 来 源 的 元 数据 项 
其 中 有 一 个 为 空 时 ,采取 互补 式 融 合 策略 ,将 其 作为 融 
合 结果 。 最 后 对 各 融合 结果 进行 重组 ,生成 对 于 文献 
资源 准确 .一致 旦 完整 的 描述 。 
4.3 实验 结果 评价 

本 文 从 元 数据 判 重 的 准确 率 、 召 回 率 和 融合 后 元 
数据 项 质量 提升 比例 两 个 方面 对 多 源 元 数据 融合 模型 
进行 效果 检验 。 

首先 是 对 元 数据 判 重 效 果 进 行 评价 ,从 5 种 类 型 
的 元 数据 判 重 结 果 中 各 随机 抽取 500 条 ,共计 2 500 条 
作为 测试 集 计算 准确 率 和 召回 率 , 结 果 如 表 3 所 示 : 

RI 各 类 型 文献 元 数据 判 重 策略 效果 


专利 /% ”学 位 论文 /% 期 刊 论文 /% 会 议论 文 /% ”图书 /% 
准确 率 100 100 99.3 100 100 
召回 率 100 99.1 98.7 99.5 100 
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从 表 3 看 出 ,5 种 文献 类 型 元 数据 判 重 策略 的 准 
确 率 均 达 到 了 99% 以 上 ,召回 率 达 到 了 98% 以 上 ,总 
体 效 果 较 好 ,能 够 验证 模型 中 判 重 策略 的 合理 性 。 

其 次 通过 元 数据 项 质量 提升 比例 对 元 数据 融合 效 
果 进 行 评 价 。 从 通过 判 重 策略 并 实施 融合 后 的 文献 元 
数据 中 各 抽取 500 条 ,对 元 数据 项 质量 提升 比例 进行 
统计 分 析 , 具 体 如 表 4 所 示 : 

RA ”各 类 型 文献 元 数据 融合 策略 效果 


专利 ”学 位 论文 期 刊 论文 会 议论 文 ”图书 
/% /% / 96 / 96 / 96 


元 数据 项 质量 提升 比例 15.1596 36.80% 15.29% 52.63% 15.38% 
元 数据 项 质量 不 变 比 例 84.85% 63.20% 84.71% 47.37% 84.62% 
元 数据 项 质量 降低 比例 0 0 0 0 0 


一 从 表 4 可 以 看 出 ,经 过 融合 策略 后 ,各 类 型 文献 
的 学 数据 项 质量 均 得 到 了 一 定 程 度 的 提升 ,其 中 ,会 
说 深 文 的 提升 幅度 最 大 ,达到 52. 63% ,原因 在 于 万 
方 欧 据 库 中 部 分 元 数据 项 的 空 值 情况 较 多 (如 页 码 、 
者 单位 等 ) ,通过 互补 式 融合 策略 能 够 对 其 进行 有 
效 补充 ;其 次 是 学 位 论文 ,提升 比例 为 36.80% ,主要 
在 忆 万 方 数据 库 未 按照 学 位 论文 的 原文 关键 词 对 其 
进 符 元 数据 项 标注 ,通过 基于 加 权 投 票 的 融合 策略 
能 够 提升 其 准确 性 ;其 他 3 种 类 型 文献 的 元 数据 项 质 
基 再 升 比例 均 在 15% 左右 ,原因 在 于 各 元 数据 项 的 
准确 性 和 完整 性 较 高 ,因此 元 数据 项 质量 提升 比例 


o 
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5 Ci 
ini 


CO 为 了 更 好 地 利用 元 数据 资源 ,促进 各 类 型 文献 次 
源 的 开放 融合 与 协作 共享 ,优化 用 户 的 资源 发 现 服务 
体验 ,本 文 针 对 元 数据 存在 的 质量 问题 设计 了 基于 决 
策 树 的 多 源 文献 元 数据 融合 模型 ,对 元 数据 实施 判 重 
与 融合 ,从 经 验 为 主 向 自动 化 转变 ,扩大 了 模型 适用 范 
围 ,并 以 中 国 知 网 .万 方 数据 库 、 华 中 师范 大 学 图 书馆 
及 湖北 工业 大 学 图 书馆 的 各 类 型 元 数据 为 例 进行 效果 
验证 。 实 验 结果 表明 ,该 策略 对 各 类 型 文献 元 数据 的 
融合 实现 具有 良好 效果 , 且 在 保障 效果 的 前 提 之 下 , 提 
升 了 整个 过 程 的 自动 化 水 平 ,效率 更 高 。 但 本 研究 还 
存在 一 些 问 题 有 待 后 续 改 进 ,主要 包括 :(D 针 对 各 类 型 
元 数据 , 均 只 选取 了 两 个 来 源 的 中 文 文献 对 模型 进行 
验证 ,在 元 数据 融合 时 ,无 法 对 基于 加 权 的 内 容 融 合 策 
略 进行 效果 验证 ;外 仅 针对 中 文 文献 资源 元 数据 进行 
了 处 理 , 对 于 多 语言 文献 资源 元 数据 的 融合 并 未 进行 
验证 ,后续 应 针对 该 类 情况 优化 融合 模型 ,以 增强 模型 


的 普 适 性 。 
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Research on Metadata Fusion of Multi-Source Documents Based on the Decision Tree 
Li Jing Hu Qian Li Xiang Xiao Bing 
School of Information Management of Central Normal University, Wuhan 430079 
qe Abstract; | Purpose/significance | Constructing a multi-source document metadata fusion model will help im- 
Pove the overall quality of document metadata, promote metadata management and utilization in the resource discov- 
«gn system, and optimize user resource discovery service experience. In view of the document metadata duplication 
gment strategy proposed by the writers before, this paper optimizes the strategy from experience-oriented to auto- 
e. and improves the automation level in the whole process on the premise of guaranteeing the duplication judg- 
gënt and fusion effect. | Method/process | The metadata items of different types of documents were different, and 
Che metadata items of the same document from different sources were different, which will make the method of judging 
lication different. An automatic multi-source document metadata fusion model based on the decision tree was pro- 
(posed, which transformed a duplication judgment problem into a classification problem. This paper selected features 
Coding to feature similarity and constructed the decision tree, on this basis, it implemented metadata duplication 
jlgment and fusion, and took different types of document resource metadata as examples to conduct experiments to 
verify the effectiveness of the strategy. | Result/conclusion | The results show that for the five document types of 
tadata, the accuracy of the duplication judgment strategy is more than 9996 , and the recall rate is more than 
*9896. The overall effect is good. Judgment on the effect of the fusion strategy, the quality improvement ratios of the 
metadata items of patents, dissertations, journal papers, conference papers and books are 15. 1596 , 36. 80% , 
15.2996 , 52. 6396 and 15.3896 respectively, all of which have significant improvement. 


Keywords: multi-source metadata the decision tree metadata duplication judgment metadata fusion 
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